Visão Geral e Padrão de Evolução Arquitetural
Passamos do sucesso fundamental do AlexNet para a era de redes profundas extremas Redes Neurais Convolucionais (CNNs). Esse deslocamento exigiu inovações arquiteturais profundas para lidar com a profundidade extrema, mantendo a estabilidade durante o treinamento. Analisaremos três arquiteturas fundamentais—VGG, GoogLeNet (Inception), e ResNet—compreendendo como cada uma resolveu aspectos diferentes do problema de escalabilidade, preparando o terreno para a interpretabilidade rigorosa do modelo mais adiante nesta lição.
1. Simplicidade Estrutural: VGG
O VGG introduziu o paradigma de maximizar a profundidade usando tamanhos de kernel extremamente uniformes e pequenos (exclusivamente filtros convolucionais 3x3 empilhados). Embora computacionalmente caro, sua uniformidade estrutural provou que a profundidade bruta, obtida por mínima variação arquitetural, foi um fator primário para ganhos de desempenho, consolidando a importância dos campos receptivos pequenos.
2. Eficiência Computacional: GoogLeNet (Inception)
O GoogLeNet contrapôs o alto custo computacional do VGG priorizando eficiência e extração de características em múltiplas escalas. A inovação central é o Módulo Inception, que realiza convoluções paralelas (1x1, 3x3, 5x5) e pooling. Criticamente, utiliza convoluções 1x1 como estreitos para reduzir drasticamente a contagem de parâmetros e a complexidade computacional antes das operações dispendiosas.
The skip connection introduces an identity term ($+x$) into the output, creating an additive term in the derivative path ($\frac{\partial Loss}{\partial H} = \frac{\partial Loss}{\partial F} + 1$). This term ensures a direct path for the gradient signal to flow backwards, guaranteeing that the upstream weights receive a non-zero, usable gradient signal, regardless of how small the gradients through the residual function $F(x)$ become.